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Verfahren und Vorrichtung zur Unterdriickung von Rauschen und 

Echos 



Die Erfindung betrifFt em Verfahren zur Rausch- und Echounterdruckung in 
Signalen, z.B. Bild- oder Sprachsignalen. Die Erfindung kann zum Beispiel in 
einer eine Freisprecheinrichtung aufweisenden Fernsprecheinrichtung, einem 
Bildtelefon oder einem medizinischen bildgebenden Gerat eingesetzt werden. 
Die Erfindung betrifit desweiteren eine Vorrichtung zur Ausfuhrung dieses 
Verfahrens. 

Bei der Aufnahmen und der Ubertragung von Bild- oder Sprachsignalen wer- 
den diese Signale oft durch Rauschen und bei der Ubertragung iiber Lei- 
tungen oft auch durch (Leitungs-) Echos gestort. Bei Sprachsignalen und 
der Verwendung einer Freisprecheinrichtung kommen desweiteren auch noch 
akustische Echos hinzu. Zur Verbesserung der subjektiven Qualitat und der 
Verstandlichkeit bei Sprache, bzw. der Scharfe und des Konstrasts bei Bil- 
dern, konnen diese Storungen mit einer Storgerauschreduktion und gegebe- 
nenfalls einer Echoreduktionsvorrichtung, z.B. einem Echokompensator oder 
einer Pegelwaage, reduziert werden. 

Die Storgerauschreduktion wird meist mit einem Verfahren der Spektralen 
Gewichtung in einem transformierten Bereich, z.B. nach einer Fourier Trans- 
formation oder einer Diskreten Cosinus-Transformation ausgefuhrt. Verfah- 
ren fur die Verbesserung verrauschter Sprachsignale sind z.B. in Y. Ephraim 
and D. Mai ah, 'Speech Enhancement Using a Minimum Mean-Square Error 
Short-Time Spectral Amplitude Estimator 5 , IEEE Trans. Acoustics, Speech 
and Signal Processing, Vol. 32, pp. 1109-1121, 1984, und in D. Malah, R.V. 
Cox and A.J. Accardi, "Bracking Speech-Presence Uncertainty to Improve 
Speech Enhancement in Non-Stationary Noise Environments', Proc. IEEE 
Intl. Conf. Acoustics, Speech, Signal Processing (ICASSP), 1999, beschrie- 
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ben. Fur die Reduktion von Rauschen in Bildsignalen sind ahnliche Verfah- 
ren bekannt, siehe z.B. J.S. Lim, 'Image Restoration by Short Space Spectral 
Subtraction', IEEE Trans. Acoustic, Speech, and Signal Proc, Vol. 28, pp. 
191-197, 1980 oder T. Aach and D. Kunz, Spectral Estimation Filters for Noi- 
se Reduction in X-Ray Fluoroscopy Imaging', Proc. EUSIPCO, pp. 571-574. 
1996. 

Die Reduktion von akustischen Echos oder Leitungsechos wird meist mit 
einem Echokompensator, einer Pegelwaage, einem Center Clipper oder be- 
liebigen Kombinationen dieser Verfahren durchgefiihrt. Eine Ubersicht zum 
Stand der Technik im Hinblick auf Sprachsignale ist z.B. in E. Hansler, 
'The Hands-Free Telephone Problem - An Annotated Bibliography', Signal 
Processing, Vol. 27, pp. 259-271, 1992, und in E. Hansler, 'The Hands- 
Free Telephone Problem - An Annotated Bibliography Update. Annales des 
Telecommunication, Vol. 49, No. 7-8, pp. 360-367, 1994, gegeben. 

Seit einiger Zeit sind audi Verfahren bekannt, die Rauschen und Echos ge- 
meinsam reduzieren. Friihe Verfahren dieser Art bestehen aus einer einfachen 
Reihenschaltung einer Storgerauschreduktion und einem Echokompensator, 
wie z.B. in dem U.S. Patent 5,680,393 (Bourmeyster et al.) beschrieben. Ver- 
besserte Verfahren verbinden die Storgerausch- und die Echoreduktion im 
Sinne einer echten Synergie. Dabei wird ein einziges Filter zur gleichzeitigen 
Reduktion von Storgerauschen und den nach der Echokompensation yerblei- 
benden Restechos eingesetzt. Dadurch wird eine erhohte Echodampfung und 
ein Komplexitatsvorteil erzielt. Ein solches Verfahren ist z.B. in S. Gustafsson 
et al.: Combined Acoustic Echo Control and Noise Reduction for Hands-free 
Telephony, Signal Processing, vol. 64, pp. 21-32, 1998. beschrieben. Diese 
Verfahren bestehen meist aus der Kombination eines Echokompensators mit 
einem die Restechos und das Rauschen verminderndem Filter. 

Der Nachteil der bisher bekannten Verfahren besteht darin, dass die Verfah- 
ren zur gemeinsamen Rausch- und Restechounterdriickung nur ein einziges, 
die Restechos und das Rauschen unterdruckendes Filter verwenden. Damit 
kann ein solches Verfahren nur ungeniigend auf wechselnde Anforderungen 
und wechselnde Signaleigenschaften eingestellt werden. Zum Beispiel sind 
beim Einsatz einer Freisprecheinrichtung unterschiedliche Betriebszustande 
moglich, je nachdem ob nur der nahe Teilnehmer spricht. nur der feme Teil- 
nehmer spricht, oder aber beide Teilnehmer sprechen. Da in diesen Betriebs- 
zustanden auch die Anforderungen z.B. an die Echodampfung unterschied- 
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lich ausfallen, erscheint es zweckmaflig verschiedene, an die Betriebszustande 
angepasst Filter zu verwenden und diese je nach Betriebszustand umzuschal- 
ten oder in einer entsprechend gewichteten Summe zu verwenden. Damit 
konnen dann Verzerrungen des Nutzsignals (z.B. Sprache) verringert wer- 
den oder aber die Qualitat des verbleibenden Hintergrundgerauschs verbes- 
sert werden. In der Bildverarbeitung sind damit Verbesserungen hinsichtlich 
storender Blockeffekte, Konstrastverluste oder aber unnatiirlich wirkender 
HintergTundmuster ('gratings') moglich. 

Die Aufgabe der Erfindung besteht deshalb darin, ein Verfahren und eine 
Vorrichtung anzugeben, das eine wirkungsvolle Rausch- und/oder Echore- 
duktion ermoglicht, und dabei nur zu minimalen Verzerrungen im Nutzsignal 
und zu einer hohen Qualitat im Reststorsignal fiihrt, wobei unterschiedliche 
Signalfilter in einer gewichteten Summe eingesetzt werden. 

Diese Aufgabe wird durch ein Verfahren gelost, dass die Merkmale des An- 
spruchs 1 aufweist. 

Das Verfahren beruht darauf, dass das gestorte Signal Nutzsignal, Rauschen 
und die evtl. auftretenden Echosignale nicht zu alien Zeitpunkten oder in 
alien Bildpunkten oder Bildregionen enthalt und daher der Einsatz unter- 
schiedlicher Signalschatzer oder Signalfilter zu unterschiedlichen Zeitpunkten 
oder bei unterschiedlichen Bildpunkten von Vorteil ist. Beispielsweise ist das 
Nutzsignal nur dann in dem gestorten Signal enthalten, wenn tatsachlich ge- 
rade Bildinformation oder Sprache iibertragen wird. In gleicher Weise hangt 
das Auftreten von Echos von der Aktivitat der das Echo generierenden Si- 
gnalquellen ab. 

Erfindungsgemass werden nun fur die verschiedenen Falle, z.B. 'Bild- oder 
Sprachinformation im Signal vorhanden', 'Rauschen im Signal vorhanden', 
'Echos im Signal vorhanden', und beliebigen Kombinationen derselben und 
je nach Pegel der Signale relativ zueinander, unterschiedliche Signalschatzer 
oder Signalfilter eingesetzt, wobei auch beliebige lineare oder nicht-lineare 
Kombinationen dieser Signalschatzer oder Signalfilter moglich sind. Auf diese 
Weise wird das Nutzsignal aus dem gestorten Signal mit einem der jeweiligen 
Situation angepassten Schatzer oder Filter extrahiert. Das Umschalten dieser 
Schatzer oder Filter oder ihre relative Gewichtung bei einer Kombination 
wird mit Hilfe von Variablen bestimmt, die aus dem gestorten Signal oder 
aus anderen Signalquellen bestimmt werden. 



3 



WO 00/74363 



PCT/EP00/04803 



Fig. 1 zeigt die prinzipielle Anordnung. z(k) bezeichnet ein Sprach- oder 
Bildsignal und das von Rauschstorungen oder Echos befreite Signal. 
x(k) bezeichnet ein moglicherweise vorhandenes externes Steuersignal. Das j 
gestorte Signal z(k) wird nun N Signalschatzern oder Signalfiltern Si, 5 2 , 
S N zugefuhrt. Eine Kombinationseinheit K, die das Eingangssignal z(k) 
und das evtl. vorhandenen externen Steuersignal x(k) verarbeitet, steuert 
die Auswahl und/oder die Kombination der von den Signalschatzern oder 
Signalfiltern Si, 5 2 , S N gelieferten Signale und bildet das von Rauschen 
und Echos befreite Signal s'(k). 

Zur Bestimmung der Schatzer und der relativen Gewichtung dieser Schatzer 
zueinander sind besonders statistische Verfahren geeignet. Insbesondere kann 
die Auswahl eines oder mehrerer zum einem bestimmten Zeitpunkt oder in 
einem bestimmten Bildpunkt geeigneter Signalschatzer oder Signalfilter aus 
den geschatzten Wahrscheinlichkeiten fur das Vorhandensein der Nutzsignal, 
Rausch- oder Echosignalanteile im gestorten Signal gesteuert werden. Nach- 
folgend wird ein Ausfiihrungsbeispiel eines solchen Schatzverfahrens fiir den 
Einsatz in einer Preisprecheinrichtung angegeben. 

Fig. 2 zeigt die Kombination aus einem Echokompensator und einem adap- 
tiven Nachfilter. Das Nachfilter ist im Frequenzbereich, unter Verwendung 
einer Diskreten Fouriertransformation (DFT), einer spektraien Gewichtung, 
und einer 'overlap/add'-Signalsynthese implement iert. Das Nachfilter setzt 
sich, wie im folgenden gezeigt wird, aus zwei Teilfiltern und einer adaptiven 
Kombinationseinheit zusammen. 

Wir betrachten die abgetasteten und bandbegrenzten Signale x(i), y(i), z(i) 
und s(i) wobei i den diskreten Zeitindex bezeichnet. x(i) ist das Signal 
des fernen Sprechers und y(i) ist das Mikrophonsignal welches sich aus ei- 
nem Sprachsignal einem Rauschen n(z), und einem Echosignal e(i), 
y{i) = s(i) + n(i) +e(z), zusammensetzt. Das echokompensierte Signal z(i) 
ist das Mikrofonsignal minus dem vom Kompensator geschatzten Echo e(i), 
z(i) = y(i) — e(i) — s(i) + n(i) + e(i). e(i) bezeichnet das Restecho nach 
der Kompensation. Wir nehmen ferner an, dass die Signale s(z), x(i), and 
n(i) statistisch unabhangig sind. Das durch Rauschen und Restechos gestorte 
kompensierte Signal z(i) wird unter Verwendung einer Fensterfunktion h(i) 
in den Frequenzbereich transformiert, indem ein Rahmen von L aufeinander- 
folgende Abtastwerte von z(i) zusammengefasst werden, dieser Rahmen mit 
der Fensterfunktion gewichtet wird und eine DFT der Lange L berechnet 



4 



WO 00/74363 PCT/EP00/04803 



wird. Vor der nachsten DFT Berechnung wird das Fenster um R Abtast- 
werte auf dem Eingangssignal verschoben. Die DFT Analyse mit gleitendem 
Fenster resultiert in einer Menge von Frequenzbereichssignalen, die auch mit 

Z(A, *) = Z< < XR ~ »M»)e- j2 * kfi/L (1) 

angegeben werden konnen, wobei A ein unterabgetasteter Zeitbereichsindex, 
A e Z, und k ein Frequenzindex, k € {0, - 1}, angibt, und letzterer 

zur normierten Mittenfrequenz der DFT-Bander mit Q k by Q k = klixj L in 
Beziehung steht. Typischerweise wird eine Abtastrate von f A = 8000 Hz und 
eine DFT-Lange von L = 2R = 256 verwendet. 

Ebenso werden die Fourierkoeffizienten aller anderen Signale des fcten Fre- 
quenzindex mit 

m Sk — A k exp(jct k ) (ungestorte nahe Sprache), 

• Y k = R k exp(j*dk) (gestorte nahe Sprache), 

• X k = B k exp(jp k ) (feme Sprache), 

• Z k = D k exp(jCk) (kompensiertes Signal), 

• S k = A k exp{ja k ) (entstdrtes Signal). 

angegeben, wobei der Klarheit halber der Zeitindex A unterdriickt wurde. 

Die Verteilungsdichtefunktionen der nahen und der fernen Sprache konnen 
mit p 3 (A k , a k ), bzw. p x (B k , angegeben werden: 

P,(A ki a k ) = P(H l 3k )p 3 (Ak, <* k \H l 3 ) + P(H° sk )5{A k , a k ) (2) 
p x (B ki (3 k ) = P{Hl k )p x {B k ^ k \Hl) + P(H° k )6{B k , &) (3) 

wobei P(Hl k ) und P(H* k ) fur die Wahrscheinlichkeiten, dass nahe bzw. feme 
Sprache voriiegt, stehen und P(H%) = 1-P(tf 3 \)) und P{H° k ) = l-P(H* k ) 
gilt. J(-) bezeichnet die Dirac-Funktion. 

Es wird nun die Kostenfunktion 
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<£= f {P(H?)P(H 0 x )£p(Z\H 0 s7 H° x ) 

+ P{Hl)P{H l x ) fill (A- A) 2 P (Z\A a, B, 0) 

• p,{A, oc\H]) Px {B, [3\H x )dAdadBdi3 (4) 
+ P{H° 3 )P{Hl)frp{Z\H° 3 , Hi) 

+ P{H})P{H° X ) JJ^A-Af 

■ p{Z\A, a, H^PsiA, <x\H])dAdct}dZ 

minimiert, wobei A die spektralen Amplituden des geschatzten nahen Signals 
bezeichnen, die wiederum eine Funktion von Z sind. Die Losung ist durch 



2 P(Hl)P{H x )p(Z\HlHl) 
A = - b x 

, P{Hl)P{H°)p{Z\H\,H*) a 

A t: *->2 



(5) 



gegeben, mit 



S^EiA^HlHl) (6) 
S 2 = E{A\Z,Hl,H x -} (7) 



P E = P{H° s )P{Hl)p{Z\H°,H 0 x ) 
+ P{Hl)P(HDp{Z\H],Hl) 
+ P{H«)P{Hl)p{Z\H° s ,Hl) 
+ P{H])P{Hl)p{Z\HlHl) 



(8) 



und 



p{Z\H°, H° x ) = ^- exp(- 7 „) (9) 



n 



P{Z]H '~ "°> = ,P.(i +6 .) ^'Th } (10) 

tfZ\n;,Hl) = -±-airt—u) (11) 

- ^UT(7) * M -^TTTJ (12) 
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E{-} bezeichnet den Erwartungswert und einen bedingten Erwar- 

tungswert. Der bedingte Erwartungswert ist der beste Schatzwert im Sinne 
des mittleren quadratischen Fehlers. 

P n , P d , 7„, 7d, £„, and £ d sind die Leistungsdichtespektren der Stoning, das 
a posteriori SNR, und das a priori SNR jeweils fur den Fall, das nur der 
nahe Sprecher aktiv ist (Index n) oder beide Sprecher aktiv sind (Index d). 
In diesem Fall wird also das entstorte Signal aus einer Linearkombination 
zweier Signalschatzer Si und S 2 gebildet, w r obei der Schatzer Si iiberwiegend 
dann eingesetzt wird, wenn der nahe und der feme Sprecher aktiv sind, und 
der Schatzer 52 iiberwiegend dann eingesetzt wird, wenn nur der nahe Spre- 
cher aktiv ist. Das hier beschriebene Verfahren unter Verwendung mehrerer 
Signalschatzer zeichnet sich gegeniiber dem Stand der Technik dadurch aus. 
dass es nur sehr geringe Nutzsignalverzerrungen bei vollig natiirlich klingen- 
dem Reststorgerausch produziert. 
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Anspriiche 

1. Ein Verfahren zur Reduktion von Rauschen und/oder Echos in einem von 
Rauschen und Echos gestorten Signal, 

dadurch gekennzeichnet, dass 

mehrere unterschiedliche Signalschatzer oder Signalfilter zur Erzeugung des 
von Rauschen und Echos befreiten Signals eingesetzt werden und die Auswahl 
eines oder mehrerer dieser Signalschatzer oder Signalfilter oder die Kombi- 
nation der von den Signalschatzern oder Signalfiltern erzeugten Signale zu 
einen einzigen entstorten Signal zu jedem Zeitpunkt oder fur jeden Bildpunkt 
durch Grossen erfolgt, die von dem gestorten Signal oder von externen Si- 
gnalen abgeleitet werden; 

2. Ein Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass es sich 
bei dem gestorten Signal urn ein gestortes Sprachsignal handelt; 

3. Ein Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass es sich 
bei dem gestorten Signal urn ein Bildsignal handelt; 

4. Ein Verfahren nach einem der vorangegangenen Anspriiche, dadurch ge- 
kennzeichnet, dass das Signal nur durch Rauschstorungen gestort ist; 

5. Ein Verfahren nach einem der vorangegangenen Anspriiche, dadurch ge- 
kennzeichnet, dass das Signal nur durch Echos gestort ist; 

6. Ein Verfahren nach einem der vorangegangenen Anspriiche, dadurch ge- 
kennzeichnet, dass das Signal sowohl durch Rauschen als auch durch Echos 
gestort ist; 

7. Ein Verfahren nach einem der vorangegangenen Anspriiche, dadurch ge- 
kennzeichnet, dass nur das Rauschen reduziert wird; 

8. Ein Verfahren nach einem der vorangegangenen Anspriiche, dadurch ge- 
kennzeichnet, dass nur die Echos reduziert werden; 

9. Ein Verfahren nach einem der vorangegangenen Anspriiche, dadurch ge- 
kennzeichnet, dass sowohl das Rauschen als auch die Echos reduziert wer- 
den; 

10. Ein Verfahren nach einem der vorangegangenen Anspriiche, dadurch 
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gekennzeichnet, dass es sich bei den Echos urn akustische Echos handelt; 

11. Em Verfahren nach einem der vorangegangenen Anspriiche, dadurch 
gekennzeichnet, dass es sich bei den Echos um Leitungsechos handelt; 

12. Ein Verfahren nach einem der vorangegangenen Anspriiche, dadurch 
gekennzeichnet, dass es sich bei den Echos um Echos in einer Mess- oder 
Signalaufnahmevorrichtung handelt; 

13. Ein Verfahren nach einem der vorangegangenen Anspriiche, dadurch 
gekennzeichnet, dass die Echos iiberwiegend von einem Echokompensator 
reduziert werden und die Restechos und das Rauschen von nachgeschalteten 
Signalschatzern oder Signalfiltern reduziert werden. 

14. Ein Verfahren nach einem der vorangegangenen Anspriiche, dadurch ge- 
kennzeichnet, dass die Signalschatzer oder Signalfilter in einem transfor- 
mierten Bereich, z.B. im Bereich einer Fourier- oder Diskreten Cosinustrans- 
formation, berechnet werden; 

15. Ein Verfahren nach einem der vorangegangenen Anspriiche, dadurch 
gekennzeichnet, dass die Signaltransformation eine diskrete Fouriertrans- 
formation ist; 

16. Ein Verfahren nach einem der vorangegangenen Anspriiche, dadurch 
gekennzeichnet, dass die Signaltransformation in Frequenzrichtung nach 
einer Bark oder Mel Skala ausgefiihrt wird; 

17. Ein Verfahren nach einem der vorangegangenen Anspriiche, dadurch ge- 
kennzeichnet, dass die Grossen zur Steuerung der Signalkombination aus 
den Wahrscheinlichkeiten fur das Vorhandensein des Signals, des Rauschens 
und des Echos berechnet werden; 

18. Ein Verfahren nach einem der vorangegangenen Anspriiche, dadurch 
gekennzeichnet, dass die Signalschatzer oder Signalfilter nach dem Prinzip 
der kleinsten Fehlerquadrate berechnet werden; 

19. Ein Verfahren nach einem der vorangegangenen Anspriiche, dadurch ge- 
kennzeichnet, dass die Signalschatzer oder Signalfilter nur die Amplituden 
der Signale in einem transformierten Bereich beriicksichtigen; 

20. Ein Verfahren nach einem der vorangegangenen Anspriiche, dadurch 
gekennzeichnet, dass die Signalschatzer oder Signalfilter gemeinsam eine 
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Kostenfunktion minimieren; 

21. Ein Verfahren nach einem der vorangegangenen Anspriiche, dadurch ge- 
kennzeichnet, dass die Ausgangssignale der Signalschatzer oder Signalfilter 
gewichtet und gemittelt werden und die Gewichte aus den Wahrscheinlich- 
keiten fur das Vorhandensein des Nutzsignals oder der Storsignale berechnet 
werden; 

22. Ein Verfahren nach einem der vorangegangenen Anspriiche, dadurch 
gekennzeichnet, dass das von Rauschen und Echos befreite Signal nach 
den Gleichungen 1-12 berechnet wird; 

23. Ein Verfahren nach einem der vorangegangenen Anspriiche, dadurch 
gekennzeichnet, dass das gleichzeitig akustische Echos und Rauschen un- 
terdriickt wird und die Kombination der Signalschatzer oder Signalfilter von 
der Aktivitat des nahen und des fernen Sprechers einer Freisprecheinrichtung 
abhangt. 
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Fig. 1: Vorrichtung zur Reduktion von Rausch- und Echostorungen mit Hilfe 
von N Signalschatzern oder Signalfiltem und einer Kombinationseinheit K. 
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Fig. 2: Vorrichtung zur gemeinsamen Reduktion akustischer Echos und Rau- 
schen. 
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